Scraping de la web: qué es y cuándo está permitido

El scraping de la web es una parte necesaria en la minería de datos — El scraping de la web, parte necesaria en la minería de datos | Foto: Ryan Pilato

Tiempo de lectura: 5 min

El scraping de una web se refiere a la extracción de datos de sitios web normalmente por medio de procesos automatizados, como bots o rastreadores web, también llamados “arañas web”. En estos procesos, el bot inspecciona todas las páginas de la World Wide Web de forma metódica y automatizada, con el fin de obtener datos específicos para copiarlos en una base de datos centralizada o en una hoja de cálculo, para un análisis posterior o recuperación de los datos. La palabra significa en español “desguace”, o si consideramos la frase web scraping la traducción más cercana sería hacer un “raspado o raspaje” de la web para extraer datos.

Este procedimiento es la técnica universal utilizada por los buscadores en internet, que acceden a las páginas web, las descargan (es lo que hace el navegador cuando un usuario accede a ella para leerla) y luego extraen sus datos para formatearlos (o parsearlos, analizarlos sintácticamente) e indexar las páginas. De esta manera pueden crear un sistema de búsquedas rápido. Pero el término ha vuelto a sonar en la conversación pública porque el scraping es la primera parte del proceso de crear una IA generativa como ChatGPT, y gracias a estas técnicas se han podido crear modelos de lenguaje para hacer funcionar chatbots con inteligencia artificial.

De las arañas a alimentar a la IA

Desde que en 1993, Matthew Gray, del Instituto Tecnológico de Massachusetts creara el Wanderer, la primera araña web con el único objetivo de conocer el tamaño de la web, la técnica del scraping ha crecido en uso. Además de los buscadores, investigadores, periodistas y desarrolladores han utilizado técnicas de web scraping con fines de análisis, investigación y educativos durante años. El New York Times, por ejemplo, ofrece una serie de APIs que facilitan el scraping, para “facilitar una amplia gama de usos, desde listas de enlaces personalizadas hasta visualizaciones complejas”, con un uso no comercial.

En los últimos años, el uso del scraping se ha popularizado en las empresas, que obtienen una gran ventaja competitiva en el análisis y uso de datos extraídos de la web pública. La base de datos libre y colaborativa llamada Wikidata a la que pertenece la Wikipedia es utilizada como alimento de la inteligencia artificial de muchos proyectos en todo el mundo. Cuando hablas con un altavoz inteligente, como Alexa o Siri, lo que te responde, muchas veces, es algo que lee en la Wikipedia.

Últimamente se habla mucho del scraping en los debates legales sobre la IA, porque varios de los grandes modelos de lenguaje han sido entrenados con enormes cantidades de contenido “escrapeado” de la web.

Cuándo es legal el scraping y la minería de datos

El scraping es una parte necesaria en la minería de datos. Se llama así al análisis automatizado de esos datos en formato digital para generar información, y está prevista en los artículos 3 y 4 de la directiva 2019/790 sobre los derechos de autor y derechos afines en el mercado único digital, y en el artículo 67 del RD 24/2021, la ley española que transpone esa directiva.

La minería de textos y datos está avalada legalmente en Europa cuando tiene una finalidad de investigación científica no comercial. En este sentido, pueden también llevarla a cabo universidades e instituciones responsables del patrimonio cultural, considerando la colaboración público-privada, por ejemplo entre empresas y centros de investigación.

El fair use de la copia y la minería de datos como argumento de OpenAI para crear modelos de lenguaje | Creado con IA por Martina Stiftinger para Google DeepMind

☷
Scraping de la Web y las IA generativas

Las IA ¿copian o leen? ¿aprenden o reproducen? La diferencia puede reescribir las reglas de la industria de la IA

En Estados Unidos no existen leyes federales que prohíban el scraping de la web siempre que los datos estén disponibles públicamente y no se ocasione algún tipo de daño al sitio web escrapeado.

En los últimos meses se ha conocido el uso indiscriminado de ingentes partes de la Web para entrenar modelos de lenguaje de inteligencias artificiales generativas, que están siendo desarrolladas y comercializadas por empresas tecnológicas, como OpenAI, Microsoft, Stability AI, o Midjourney, lo que ha generado varias demandas legales en Estados Unidos.

No hay consenso entre varios expertos jurídicos consultados por Newtral en estos meses, y el debate sobre propiedad intelectual y usos legítimos del material utilizado para entrenar grandes modelos de lenguaje continúa abierto.

“La respuesta no puede ser muy contundente”, dice Ciro Llueca, de FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía, Documentación y Museística), “porque es algo muy nuevo y hay muchas zonas grises en estas tecnologías emergentes”.

Fuentes

Ciro Llueca, Coordinador Bibliotecas y Propiedad Intelectual de FESABID (Federación Española de Sociedades de Archivística, Biblioteconomía, Documentación y Museística)
DIRECTIVA (UE) 2019/790 DEL PARLAMENTO EUROPEO Y DEL CONSEJO de 17 de abril de 2019 sobre los derechos de autor y derechos afines en el mercado único digital y por la que se modifican las Directivas 96/9/CE y 2001/29/CE
Real Decreto-ley 24/2021, de 2 de noviembre, de transposición de directivas de la Unión Europea
Mei Kobayashi and Koichi Takeda. 2000. Information retrieval on the web. ACM Comput. Surv. 32, 2 (June 2000)
Brief History of Web Scraping
New York Times Developers
Foto de Ryan Pilato

De las arañas a alimentar a la IA

Cuándo es legal el scraping y la minería de datos

Relacionados